World Bank Analyse
Dr. rer. nat. Noemi Castelletti, Elisabeth Lucke
Robin Billinger, Maximilian Frei, Leonie Mertes
PD Dr. Fabian Scheipl, Daniel Schlichting
2025-01-20
Agenda
Überblick und Gruppierungen
Datenanalyse
2.1 HIV
2.2 Bildung
2.3 Tabakkonsum
2.4 Landwirtschaft
Zusammenfassung und Ausblick
Überblick
World Bank Datensatz
Erhebungsart: Longitudinal
25 Länder untersucht
18 verschiedene Indikatoren
Jährliche Messungen von 2000 bis 2021
Gruppierungen
| Prävalenz Alkoholkonsum |
Sehr gering |
Gering |
Mittel |
Groß |
Sehr groß |
| Anteil Grundbildung |
Sehr gering |
Gering |
Mittel |
Groß |
Sehr groß |
| Bevölkerungsdichte |
- |
Niedrig |
Mittel |
Hoch |
- |
| Einwohnerzahl |
- |
Gering |
Mittel |
Hoch |
- |
| Einkommensniveau |
- |
Gering |
Mittel |
Hoch |
- |
| Prävalenz Tabakkonsum |
Sehr gering |
Gering |
Mittel |
Groß |
Sehr groß |
| Landesfläche |
Sehr klein |
Klein |
Mittel |
Groß |
Sehr groß |
2.1 HIV
Wie verhält sich die HIV-Prävalenz in der Bevölkerung zwischen 15 und 49 Jahren zum gesamten Alkoholkonsum pro Kopf?
2.1 HIV
2.1 HIV
Haben Länder mit einem höheren Prozentsatz der Erwerbsbevölkerung mit Grundbildung eine niedrigere HIV-Prävalenz unter den 15- bis 49-Jährigen?
2.1 HIV
2.2 Bildung
Haben Länder mit höherer Staatsverschuldung einen geringeren Anteil an Erwerbspersonen mit Grundbildung?
2.2 Bildung
2.2 Bildung
2.2 Bildung
Führen mehr Erwerbstätige mit Grundbildung zu einer niedrigeren Schüler-Lehrer-Relation?
2.2 Bildung
2.2 Bildung
Welche Auswirkungen haben niedrige Schüler-Lehrer-Relationen auf die Bildungsqualität?
2.3 Tabakkonsum
In welchem Zusammenhang steht das Bruttoinlandsprodukt pro Kopf mit der Prävalenz des aktuellen Tabakkonsums unter Erwachsenen?
2.3 Tabakkonsum
2.4 Landwirtschaft
Gibt es einen Zusammenhang zwischen dem Anteil der landwirtschaftlichen Nutzfläche und den CO2 Emissionen pro Kopf eines Landes?
2.4 Landwirtschaft
Welcher Bedeutung fällt hierbei die Landesfläche eines Landes zu?
2.4 Landwirtschaft
Zusammenfassung und Ausblick
HIV vs. Alkoholprävalenz und Grundbildung: jeweils eher positiver Zusammenhang
Grundbildung vs. Staatsverschuldung und Schüler-Lehrer-Relation: jeweils eher positiver Zusammenhang
Tabakkonsumprävalenz vs. BIP: eher positiver Zusammenhang
Landwirtschaftliche Nutzfläche vs. CO2 Emissionen: eher positiver Zusammenhang
Mögliche Informationen zu anderen Indikatoren, die weitere Erkenntnisse liefern könnten:
zu urbaner, forstwirtschaftlicher Fläche sowie Wasserfläche [% oder km2]
zur Quantifizierung von Bildungsqualität
Anhang
Anhang
Anhang
Anhang
Anhang
| 2000 |
2.200456 |
1.3355127 |
0.7760908 |
0.4404161 |
| 2005 |
1.586584 |
0.8072496 |
0.4215260 |
0.2421420 |
| 2010 |
1.240258 |
0.5280582 |
0.2541619 |
0.1773269 |
| 2015 |
1.320069 |
0.5467187 |
0.2812418 |
0.2232322 |
| 2018 |
1.242548 |
0.5700443 |
0.3211268 |
0.2709994 |
| 2019 |
1.242548 |
0.5700443 |
0.3211268 |
0.2709994 |
| 2020 |
1.229573 |
0.5707539 |
0.3241600 |
0.2755441 |
Anhang
Anhang
Anhang
Anhang
Anhang
Anhang
Anhang
Anhang
Ordinary Least Squares (OLS) estimates regression coefficients by minimizing squared residuals:
\[
\min_{\beta} \sum_{i=1}^{n} (y_i - X_i \beta)^2
\]
This method provides BLUE (Best Linear Unbiased Estimators) under the Gauss-Markov theorem, assuming normally distributed residuals. However, in real-world data, violations of this assumption can reduce efficiency, affecting confidence intervals and hypothesis tests.
Anhang
To mitigate outliers, Robust Linear Models (RLMs) via MASS::rlm() use Iteratively Reweighted Least Squares (IRLS), reducing the influence of extreme values.
The default psi function, psi.huber, applies Huber’s loss function:
\[
L_{\delta}(r) =
\begin{cases}
\frac{1}{2} r^2 & \text{if } |r| \leq \delta, \\
\delta (|r| - \frac{1}{2} \delta) & \text{if } |r| > \delta.
\end{cases}
\]
where:
- ( r ) is the residual ( y_i - X_i )
- ( ) (default: 1.345) controls robustness
Anhang
By default, geom_smooth(method = MASS::rlm) displays confidence intervals, but MASS::rlm() does not compute standard errors. Instead, ggplot2 approximates them using the OLS-based formula:
\[
CI = \hat{y} \pm t_{\alpha/2, df} \cdot SE(\hat{y})
\]
where:
- ( ) is the predicted value
- ( SE() ) is approximated via local smoothing
- ( t_{/2, df} ) is the critical t-value
Anhang
The Spearman correlation coefficient measures the monotonic relationship between two variables. Unlike Pearson correlation, which captures only linear relationships, Spearman correlation assesses whether as one variable increases, the other tends to increase or decrease in a consistent order.
\[
\rho = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)}
\] where:
- ( d_i ) is the difference between the ranks of the corresponding values of the two variables
- ( n ) is the number of observations